查看原文
其他

KDD 2023 | SGIR:半监督的图不平衡回归

刘罡 PaperWeekly 2024-01-11



©Paperweekly 原创 · 作者 | 刘罡

单位 | 圣母大学

研究方向 | 图机器学习





背景

分子(molecules)和聚合物(polymers)的应用在现代生活中无处不在,诸如药物、塑料杯、电子设备甚至航空航天技术。医学和环境等领域的新挑战越来越需要具有独特性质的分子和聚合物来满足不断变化的需求。这些物质具有独特的图结构,为我们理解它们的性质提供了基础途径。由于许多性质可以在连续尺度上进行测量,从分子图结构预测这些性质的回归任务对于推动药物发现和材料设计至关重要。通过解析这些图结构内部的关系,科学家可以在开发新药物和设计创新材料方面取得重大进展。

在我们的论文《半监督图不平衡回归》(Semi-Supervised Graph Imbalanced Regression)中,我们发现了图回归任务中的两个重要挑战:有限的数据规模有限和非常不平衡的标签分布。我们通过一个名为 SGIR 的新颖半监督框架来解决这些新问题。

SGIR是一个自我训练的框架,通过三个协同组件:回归置信度(regression confidence)、反向采样(reverse sampling)和锚定混合(label-anchored mixup),从伪标签和增强样本中创建平衡且丰富的训练数据。我们也对 SGIR 进行了理论动机描述。实证验证涵盖了分子、聚合物和图像等七个来自不同领域的图回归任务。



不平衡回归问题

▲ 图1. 六个分子及聚合物属性预测任务的不平衡数据分布。根据不平衡的特点,我们将标签空间分为三个不同的区域:多样本区域(many-shot region)、中等样本区域(medium-shot region)和少样本区域(few-shot region),以进行公平而全面的模型评估。
示图回归模型的标记训练数据,其中 是不平衡标记数据集中的训练图数量。这些数据往往集中在连续标签空间中的特定区域。为了揭示这一点,我们首先将标签空间分成 个区间,用它们完全覆盖连续标签值的范围。这些区间是 。然后,我们将标记的示例分配到 个区间中,并在每个区间中计数,构建频率集
我们可以发现,实际情况是 (即标签不平衡)经常存在,而不是大多数现有模型假设的 (即标签平衡)。在分离出一定数量的平衡验证集和测试集后,我们在图 1 中可视化了六个常见分子及聚合物任务的训练分布,以此来更直观地揭示回归任务中的数据不平衡问题。由此可以观察到,现有模型可能对标签空间中由大多数标记数据主导小区域存在偏差,并且对同样重要但示例较少的区域缺乏泛化能力。



方法

▲ 图2. SGIR 框架。SGIR 从无标记数据的预测标签中选择高度可信的示例(第二列),并通过一种锚定混合的数据扩增算法为严重缺乏数据的标签区域提供更多样本(第三列)。

经典的自我训练框架是利用平衡标签的分类/回归任务中的未标记数据进行训练的循环过程。首先,通过一个特定的阈值,该框架会对未标记训练样本进行伪标签分配,形成一个新的带有伪标签的标记训练集。然后,利用这些伪标签样本来丰富标记的训练集,并持续训练分类器/回归器。然而,对于一个包含不平衡标签集合的模型训练循环来说,除了扩充数据集,自训练也应该承担补偿不足标签的作用。

图 2 展示了 SGIR 框架的基本构想。我们通过逐步改进标记和未标记集合的训练数据,逐渐减少模型对大部分标签的偏见。每次迭代中,模型对多数标签的偏见减小。而偏见较小的模型能够对未标记数据进行更准确和自信的预测。因此,模型训练和数据平衡能够相互增强。SGIR 的更多技术细节如下所述。
3.1 基于置信度的图回归

缺乏置信度测量可能会导致标签平衡中引入噪声。我们依赖于两个概念来定义良好的回归置信度测量:原理子图(rationale subgraph)和环境子图(environment subgraph)。原理子图被定义为最佳地支持和解释图属性推断中的预测的子图结构。与之对应的环境子图是原理子图的补充子图,如果使用,会扰动基于原理子图的预测。我们的想法是基于识别到的原理子图的可靠性来测量图属性预测的置信度。

具体来说,我们使用由特定理性子图和许多可能环境子图组成的图形中预测标签值的方差。我们将 表示为大小为 的批次中的第 个图。通过子图分离模型,我们可以将 分为原理子图 和环境子图
对于同一批次中的第 个图 ,我们有一个组合示 它具有 的原理子图和 的环境子图。但该图的标签仅由原理子图决定,即它具有与 相同的标签。通过枚举 ,回归模型可以被训练来预测任何 的标签值。由此,我们可以定义对于某张图 的回归置信度为:
3.2 反向采样
反向采样选择性地为欠表示的标签区域采样更多伪标签。为了补偿不同标签范围中的数据不平衡,我们使用标签分布的反向分布来揭示需要更多或更少选择进行标签平衡的标签范围。我们将 表示为第 个区间的采样率,以及进行反向采样。如果 ,我们希望 。我们定义一个新的频率集 如果 中第 大的值,则在新的集合中, 等于 中第 小的值。然后采样率为

经过置信度筛选和反向采样,我们得到可以用来扩充数据集且平衡数据分布的伪标签数据集 。在每个自我训练迭代中,我们将其与原始训练集 相结合。
3.3 锚定混合数据扩增
即使已经充分利用了伪标签来解决标签不平衡问题,标记和伪标记示例的联合标签分布可能仍然远离完美平衡。这是因为在不足标签范围中可能没有足够数量的伪标记示例来填补缺口。现在,我们可以将每个区间的中心点 作为标签锚点,并通过池化(如求平均)操作将该区域内的标签数据表征聚合为区域表征向量
之后通过数据扩增,我们可以在潜空间中得到更多图数据示例。具体来讲,我们从 中选择与 最接近的标签的 个真实图样本,其中 可由反向采样公式计算得出。对于 ,我们将区间()和图表征及标签()进行混合,其中 分别是第 个图的表示向量和真实或预测标签。混合(mixup)操作定义为

其中 分别是扩增图的表示向量和标签。 是一个超参数。因为我们希望 更接近于标签锚点 应通常接近于 1。设 表示所有扩增图的表示向量集合,我们将其与 结合,得到用于下一轮自训练的标签平衡的训练集。


实验

▲ 图3. 分子回归任务性能对比实验。最好以及次好结果以粗体和斜体显示。MAE 表示平均绝对误差,GM 表示几何平均误差。

我们在七个不同的数据集上进行的充分的实验。在所有任务中,SGIR 的性能始终优于竞争性基准模型。我们在图 3 中展示了在三个分子回归任务的性能对比。在整个标签范围内,我们的方法在分子任务上相对于最佳基准模型能够将平均绝对误差降低约 10%。重要的是,我们发现基准方法在特定范围内的最佳性能会牺牲其他标签范围的性能,而我们的改进同时涵盖了所有如图 1 所示的标签范围。


结论
我们的研究探索了图结构上的不平衡回归任务,并提出了一个全新的半监督学习方法。我们引入了自训练的框架,通过多次迭代逐渐减少由数据不平衡引起的模型偏差。我们的实验证明了所提出框架的有效性和合理设计,特别是在药物发现和材料科学等应用领域。


参考文献

[1] Wei, C., Sohn, K., Mellina, C., Yuille, A., & Yang, F. (2021). Crest: A class-rebalancing self-training framework for imbalanced semi-supervised learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10857-10866).

[2] Yang, Y., Zha, K., Chen, Y., Wang, H., & Katabi, D. (2021, July). Delving into deep imbalanced regression. In International Conference on Machine Learning (pp. 11842-11851). PMLR.

[3] Ren, J., Zhang, M., Yu, C., & Liu, Z. (2022). Balanced mse for imbalanced visual regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7926-7935).

[4] Liu, G., Zhao, T., Xu, J., Luo, T., & Jiang, M. (2022, August). Graph rationalization with environment-based augmentations. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 1069-1078).


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存